Aquest article o secció no cita les fonts o necessita més referències per a la seva verificabilitat. |
L'article necessita algunes millores pel que fa a l'ortografia i la gramàtica. |
La neteja de dades (en anglès data cleaning o data scrubbing) és l'acció de descobriment, de correcció o d'eliminació de registres de dades errònies d'una taula o d'una base de dades. Aquest procés de neteja permet identificar dades incompletes, incorrectes, inexactes, no pertinents, etc. i després substituir, modificar o eliminar completament aquestes dades brutes. Després d'aquesta neteja, la base de dades podrà ser compatible amb altres bases de dades similars d'un sistema.
Aquest procés és una part crucial de l'anàlisi de dades, especialment quan es recopilen dades quantitatives.
Les inconsistències descobertes, modificades o eliminades en un conjunt de dades, poden ser causades per definicions de diccionari diferents d'entitats similars, els errors d'entrada de l'usuari o la corrupció en el moment de la transmissió o l'emmagatzematge.
La neteja de dades es diferencia de la validació de dades en el fet que, gairebé sempre, compleix la funció de rebutjar els registres erronis durant l'entrada al sistema, i no en lots de data. L'objectiu de la neteja de dades és assolir dades de qualitat i organitzades de forma eficient.